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BioTrHMM: 基 于 迁移 学 习 的 生物 医学 命名 实体 识别 算法 


高 冰 涛 ,， 张 阳 , 刘 斌 


(西北 农林 科技 大 学 信息 工程 学 院 , 陕西 杨凌 712100) 


学 文本 中 命名 实体 识别 
尔 可 夫 模 型 问题 。 对 要 进行 命名 实体 识别 的 目标 领域 数据 集 无 须 进行 大 量 数据 标注 ， 通 过 迁移 学 习 的 方法 实现 对 目标 
领域 的 识别 分 类 。 以 相关 领域 数据 为 辅助 数据 集 ， 利 用 数据 引力 的 方法 评估 辅助 数据 集 的 样本 在 目标 领域 学 习 中 的 贡 
献 程 度 ， 在 辅助 数据 集 和 目标 领域 数据 集 上 计算 权 值 进行 迁移 学 习 。 基 于 权 值 学 习 模 型 ， 构 建 基于 迁移 学 习 的 隐 马 尔 
可 夫 模 型 算法 BoTrHMM。 在 GENIA 语料库 的 数据 集 上 的 实验 表明 ，BioTrHMM 算法 比 传统 的 隐 马 尔 可 夫 模 型 算法 
具有 更 好 的 性 能 ; 仅 需 要 少量 的 目标 领域 标注 数据 ， 即 可 具有 较 好 的 命名 实体 识别 性 能 。 
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摘 要 : 传统 的 生物 医学 命名 实体 识别 方法 需要 大 量 目标 领域 的 标注 数据 ， 但 是 标注 数据 代价 高 昂 。 为 了 降低 生物 医 
二 目标 领域 标注 数据 的 需求 ， 将 生物 医学 文本 中 的 命名 实体 识别 问题 化 为 基于 迁移 学 习 的 隐 马 
进 


BioTrHMM: named entity recognition algorithm based on transfer learning in biomedical 
texts 


Gao Bingtao, Zhang Yang', Liu Bin 
(College of Information Engineering, Northwest A&F University, Yangling, ShaanXi 712100, China) 


Abstract: Traditional methods of biomedical named entity recognition (NER) require a large amount of labeled data in the 
target domain, but the cost of tagging data is expensive. In order to reduce the requirement of labeled data in target domain for 
NER, the problem of NER in biomedical texts is transformed into a hidden Markov model based on transfer learning. The data 
sets in the target domain for NER do not need a large amount of labeled data to learn a model for the task by transfer learning. 
With the help of labeled data in source data sets across a different but related domain, and use the method of data gravitation to 
evaluate the contribution of samples in the auxiliary data sets about learning a model for the target domain. And calculate the 
weights of the data from the source domain and the data from the target domain. And then construct the hidden Markov model 
algorithm(BioTrHMM ) based on the transfer learning. The experiment results on GENIA corpus show the BioTrHMM algorithm 
has better performance than the traditional algorithm of hidden Markov model, only uses small amount of labeled data in target 
domain. 
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本 文 利用 基于 实例 的 迁移 学 习 方法 对 辅助 数据 集 进行 知识 


引言 


迁移 ， 协 助 解决 目标 领域 的 学 习 问 题 。 为 了 降低 对 目标 领域 


4 


) 


传统 的 生物 医学 命名 实体 识别 方法 往往 需要 使 用 大 量 标注 祭 注 数据 的 需求 ， 算 法 需要 处 理 如 下 问题 : a) 如 何在 目标 领域 
昌 集 构建 模型 ， 从 而 保证 模型 的 分 类 预测 性 能 。 但 是 在 现实 标注 数据 较 少 的 情况 下 得 到 性 能 较 好 的 预测 模型 ; b) 如 何 实 


时 


情况 中 ， 通 常 本 文 感 兴趣 的 领域 中 可 获得 上 


已 标注 数据 很 少 ， 跨 领 域 知识 迁移 ， 从 而 辅助 目标 任务 进行 学 习 。 本 文 算 沟 


WP 


缺乏 足够 大 的 训练 集训 练 强壮 的 模型 ， 并 且 人 工 标注 的 代价 高 。 数据 引力 方法 评估 辅助 数据 集中 样本 对 目标 学 习 问 题 的 贡献 程 
昂 。 迁 移 学 习 可 以 从 相关 领域 数据 集中 学 习 知 识 ， 辅 助 学 习 目 度 ， 进 而 对 辅助 数据 集中 样本 赋予 权 值 ， 提 出 了 基于 样本 的 迁 


标 领域 的 知识 ， 协 助 解决 目标 领域 的 学 习 问 题 。 利 用 相关 领域 。 移 学 习 方法 。 本 文通 过 修改 隐 马 尔 可 夫 模 型 的 学 习 算法 和 分 类 
的 数据 ， 可 以 大 大 减少 对 目标 领域 已 标注 数据 的 需求 量 ， 节 约 。 方法 ， 提 出 基于 权 值 的 隐 马 尔 可 夫 模 型 --BioTrHMM 算法 。 
标注 数据 的 高 昂 成 本 。 隐 马 尔 可 夫 模 型 (HMM ) 在 传统 的 生物 医学 命名 实体 识别 
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中 应 用 非常 广泛 。 比 如 基于 单词 相似 度 


F 滑 技术 的 HMM 命名 


实体 识别 分 类 器 四、PowerBioNE 生物 命名 实体 识别 系统 乌 、 


Zhang 等 人 B4 也 指出 HMM 在 生物 医学 领域 中 
获得 良好 的 预测 | 


别 的 有 效 性 等 。 这 些 方法 为 


已 标注 的 样本 作为 训练 数据 集 来 构建 预测 模型 。 


在 命名 实体 识别 和 软件 故障 预测 等 领域 
特别 是 基于 实例 的 迁移 学 习 方 法 中 


迁移 学 习 辐 作为 一 种 解决 跨 领 域 知识 学 习 问 题 的 学 习 方 法 ， 
4 和 0 都 有 很 好 的 应 用 。 
Unearestneighbour(INN) 


filter 和 transfer naive Bayes(TNB) 等 ， 通 过 度量 


的 贡献 大 小 给 样本 分 配 不 同 的 权重 
越 相似 ， 则 对 构建 分 类 分 析 模 型 起 到 的 


作 


中 


权 值 越 大 [1。 本 文采 用 文献 [12] 中 的 数 


据 集中 每 个 样本 的 权 值 。 
本 文 算法 


Wr 


同 标注 数据 的 辅助 数据 集 进行 迁移 学 习 ， 基 


口 


样本 对 构建 模型 


甫 助 数据 样本 与 目标 数据 
用 越 大 ， 所 以 赋予 的 
引力 模型 来 评估 辅助 
数据 集中 样本 数据 与 目标 数据 集中 样本 数据 的 相 


仅 需要 少量 目标 领域 标注 数据 ， 对 已 有 相关 但 
于 辅助 数据 集 和 


以 性 ， 计 算数 


a 


标 领域 标注 数据 集 构建 预测 模型 ， 识 别 目标 领域 数据 集中 的 命 


名 实体 。 
验 , 实 


本 文 在 


性 能 。 


1 ”问题 定义 


对 于 生物 医学 文本 命名 实体 识别 中 需要 大 量 的 
而 人 力 标 注 开销 大 的 问题 ,本 文 针 对 目标 数据 集 D ， 以 相关 但 


GENIA 语料库 上 针对 不 同人 
伟 结 果 表明 本 文 提 出 的 BioTrHMM 算法 在 大 大 减少 人 
标注 样本 开销 的 情况 下 ， 比 传统 的 HMM 算法 


不 同 领域 的 数据 集 D 为 辅助 数据 集 , 将 
下 的 HMM 问题 。 给 定 训练 数据 集 D，， 
数据 集 上 ，VY = (Gv,v,,.…,v,) 为 观测 序列 ， 


应 的 词性 状态 序列 。 本 文 的 目标 是 通过 对 
完成 对 D 的 知识 迁移 , 得 到 D'= (sample,w) ,其 中 , sample 为 样 
本 ，w 为 样本 对 应 的 权 值 。 在 D' 上 构建 一 个 HMM 模型 ， 


test 


No 
Ar 
对 


VI 


™ 


和 度 进行 了 多 组 实 
TL: 


有 更 好 的 预测 


转换 为 迁移 学 习 场 景 
D,=D, UD 。 在 目标 
T=(i,i,.wi) 为 V 对 


| 站 


的 样本 赋予 权 值 ， 


(1) 


即 对 于 给 定 的 观测 序列 y ， 通 过 模型 f(y) 对 序列 的 词性 


状态 进行 识别 分 类 ， 得 到 该 序列 所 对 应 的 词性 状态 序列 ， 输 
出 词性 状态 为 实体 类 型 的 观测 样本 ， 完 成 命名 实体 识别 。 


2 BioTrHMM 算法 


本 文 提出 基于 迁移 学 习 的 隐 马 尔 可 
法 ， 在 使 用 较 少 的 
助 数据 集 构建 模型 ， 


况 


夫 模 型 BioTrHMM 算 
目标 领域 数据 的 情况 下 ， 基 
对 目标 数据 集 进行 预 


于 目标 数据 集 和 
I， 依然 具有 较 好 


的 性 能 。 本 文通 过 评估 辅助 数 
献 程度 , 利 | 


忆 仙 


A 


中 样本 对 有 
数据 引力 的 方法 对 样本 赋予 权 值 ,进行 知识 迁移 ， 
通过 修改 隐 马 尔 可 夫 模 型 的 学 习 算法 ， 得 到 
隐 马 尔 可 夫 模 型 。 本 文 的 技术 路 线 可 分 为 4 个 主要 步骤 : 数据 


迁移 学 习 场 景 下 的 


标 学 习 问 题 的 贡 


己 标注 样本 ， 


集 的 构建 、 知 识 的 迁移 学 习 、 模 型 的 学 习 以 及 预测 与 评估 ， 如 
图 1 所 示 。 其 中 ， 图 1 中 的 第 2 部 分 和 第 3 部 分 构成 本 文 的 


) 


BioTrHMM 的 预测 算法 | B 和 有 ， 得 到 模型 


BioTrHMM 算法 ， 将 在 下 文 进行 介绍 。 
2.1 基于 实例 的 数据 迁移 
1. 数据 集 构 建 2. 迁 种 学 习 | 
| sen | 鲁 助 集 肥 4 算 ED | 1 | 
2 | 
| " 决定 权 值 W | 
| do 四 训 续 入 马 |} 由 [| isimiariy | 一 
「 瑟 传 可 方法 连 | 
行 比较 4. 预测 与 评估 3. 学 习 模 型 训 续 入 D/ | 一 | 
4 f y | 
性 能 评估 误 试 集 攻取 词 的 状态 权 全 | [eamag , 
| 有 
[HE ea | 
人 一 | 
| 
| 


图 1 BioTrHMM 算法 模块 关系 


为 了 给 数据 样本 赋予 权 值 ， 本 文 以 辅助 数据 样本 与 目标 数 
据 样本 之 间 的 相似 度 评估 辅助 数据 集 对 目标 学 习 问题 的 贡献 各 
度 。 

2.1.1 计算 相似 度 

根据 D 中 的 词性 和 结构 信息 , 计算 Dp, 中 的 样本 与 D 中 样 
本 的 相似 度 。 本 文 分 别 使 用 单词 相似 性 和 编辑 距离 对 Dp, 中 的 样 
本 数据 和 D, 中 的 样本 数据 的 相似 度 进行 计算 。 

定义 1 单词 相似 性 Similarity) 是 指 两 个 不 同 的 单词 字 
符 串 中 最 大 相同 字符 串 的 长 度 。 

公式 定义 如 下 : 


(2) 


Similarity = _ 
maxl 


其 中 : 7 表示 两 个 单词 最 大 相同 字符 串 长 度 ，max7 表示 两 个 
词 中 长 单词 的 字符 串 长 度 。 

编辑 距离 (edit distance) 是 指 对 于 两 个 字符 串 ， 由 一 个 转 
换 成 另 一 个 所 需 的 最 少 编辑 操作 次 数 。 许 可 的 编辑 操作 包括 将 
一 个 字符 替换 成 另 一 个 字符 ， 插 入 一 个 字符 ， 删 除 一 个 字符 。 
假设 字符 串 c 和 4 的 长 度 分 别 为 ?和 e， 则 字符 串 c 和 4 的 编 
辑 距离 ED(e, y) 的 计算 公式 0 为 


I 


ED(0,0)=0 
ED(0,y) = ED(y,0)=y 
EDle, y)= 
ED(e-1,y-1) c=d, (3) 
l1+min(ED(e-1,y), ce 
EDle, y -1), . 
ED(e-1,y-1)) 
2.1.2 计算 权 值 
丸 为 命名 实体 数据 的 词性 类 别 属于 NN (Cnoun， singular 


or mass: 名 词 ， 单数 ， 物资 名 词 (不 可 数 名 词 ) ) 09， 所 以 计算 
万 中 的 词性 为 NN 的 样本 数据 与 Dp 中 实体 类 型 样本 数据 和 词 
性 为 NN 的 样本 数据 的 相似 性 。 Similarity, 或 者 
EditDistance, 为 D. 中 样本 与 Dp 中 第 p 个 实体 类 型 样本 或 词性 


设 
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为 NN 的 样本 的 相似 度 , 则 对 于 目标 样本 的 权 值 下 可 由 式 (4) 
或 式 (5) 计算 得 到 。 其 中 ，m 和 m, 分 别 为 两 物体 的 质量 ,K 为 
常数 。 


一 


Kmm,Similarity, 


je G Mmm, 
(2— Similarity,) 


W 


p 


ee (4) 
Similarity, 


i 
(2— Similarity,) 
Ww GM 2G Km mm, 
。 三 (+ EditDistance,) 
1 
oc 
(+ EditDistance,) 
六 中 每 个 词性 为 NN 的 数据 的 最 终 权 值 为 
W =max(W,) 万 =12， ,m (6) 
其 中 : m 为 Dp, 中 实体 类 型 样本 数 与 词性 为 NN 的 样本 数 之 和 。 
通过 上 述 方 法 对 D, 中 样本 赋予 权 值 ， 得 到 Dp' ， 并 用 以 构 
建 模型 。 
2.2 BioTrHMM 的 学 习 算法 
本 文 使 用 的 基本 模型 是 隐 马 尔 可 夫 模 型 ， 模 型 参数 包括 : 


(5) 


状态 转换 概率 矩阵 4、 观 测 概率 矩阵 8 和 初始 状态 概率 向 量 x 。 


其 中 A=[a,],, ,其 中 a 表示 在 时 刻 + 处 于 状态 9, 的 条 件 下 在 时 


刻 tt1 转移 到 状态 9; 的 概率 PG ,= gji=g)， i=1,2,..n; 


由 


j=1.2,.n。 其 中 , O={g,,g,，,gq} 是 所 有 可 能 的 状态 的 集合 ， 
nn 为 所 有 可 能 的 状态 数 。 本 文 对 隐 马 尔 可 夫 模型 的 参数 4 和 
进行 了 修改 。 传 统 的 模型 参数 学 习 方 法 是 使 用 转换 状态 的 次 数 
计算 得 到 状态 转换 概率 ， 本 文 是 在 迁移 学 习 场 景 下 进行 模型 参 
数 的 学 习 ， 故 本 文中 参数 4 的 计算 方式 如 下 


六 站 


二 


” 区 Sw 让 三 1] .2.5 天 
j=1 


(7) 


其 中 : w, 表示 状态 i 转移 到 状态 的 权 值 ，W; 表示 状态 i 发 


生 转 移 的 权 值 之 和 。 


B=[b,(k)], ,其 中 b;(k) 表示 在 时 刻 ! 处 于 状态 9; 的 条 件 


下 生产 观测 值 y 的 概率 P(o,=v|i =gq,))， 其 中 大 =1,2,...,m; 


J]=1,2,...,n。 


N 
Db (Kk) = 到 8 
(OD= (8) 


其 中 : 入 jx 表示 状态 j 的 时 候 观 测 到 Vi 的 次 数 ， N, 表示 状态 


7 的 时 候 可 能 观测 到 的 所 以 观测 值 的 次 数 总 和 。 


Xx =(Xz) ;Ti 是 时 刻 1 二 1 处 于 状态 di 的 概率 Pi =g), 其 中 


w 


Fy i=1,2,.n (9) 


A 


i 


其 中 ，w 表示 初始 状态 为 i 的 权 值 。 

在 p,' 上 通过 统计 的 方式 学 习 得 到 4 、B 、 三 个 参数 ， 
得 到 模型 。 
2.3 BioTrHMM 的 分 类 算法 

在 D ,上 学 习 得 到 模型 六 后 , 本 文 进一步 对 维特 比 算法 [13] 
进行 了 修改 ， 并 使 用 修改 后 的 维特 比 算法 进行 分 类 分 析 。 本 文 
在 疡 ,上 通过 样本 的 权 值 ， 计 算得 到 基于 权 值 的 状态 转换 矩阵 
代 蔡 原 维特 比 算法 中 使 用 状态 出 现 次 数 计算 状态 转换 矩阵 。 在 
给 定 模型 六 的 情况 下 ， 维 特 比 算法 可 以 有 效 地 得 到 观测 序列 对 
应 的 状态 序列 ， 即 得 到 给 定 观测 文本 序列 对 应 的 词性 序列 ， 通 
过 观察 对 比 得 到 的 词性 序列 ， 本 文 可 以 得 到 命名 实体 类 型 的 观 
测 文本 ， 达 到 命名 实体 识别 的 目的 。 下 面 给 出 本 文中 的 预测 算 
法 : 


在 这 里 定义 两 个 变量 5 和 yw ， 定 义 在 时 刻 t 状态 为 i 的 所 
有 单个 路 径 (j,i,.…,i) 中 概率 最 大 值 为 


AO) 区 和 PUG =,,i ,ol Vee 1) 


过 人 1 

CAL A C9 
i=1,2,...,N;ft =1,2,...,7T —1 

定义 在 时 刻 1 状态 为 的 所 有 单个 路 径 (i,i,..,i ,i) 中 概率 


最 大 的 路 径 的 第 二 1 个 节点 为 


WW.,(D) =arg max[od, (Dasl,i=1,2,...,N (11) 


体 预 测 如 下 : 
a) 初始 化 。 


5O=zpo)=- by), 
Dw (12) 


i=1,2,...,n;W (D =0,i7=1,2,...,n 


首先 对 与 给 定 观 测序 列 ， 在 时 刻 f=1 时 计算 得 到 状态 为 i 
的 所 有 单个 路 径 (i) 中 概率 最 大 的 路 径 。 由 于 时 刻 {=1 没有 前 
一 时 刻 ， 所 以 y()=0,i=1,2,...,n。 

b) 递 推 。 对 ，z= 2.3,,7 


6.() = max[6,,(Da, lb lr,) 


=max[6 (Db ),i=L 2 99 
w 


i 
i=1 


W.(i) =arg max[6.,(N)a,] 


Ws i120n (14) 


n 


=arg max[6,,()) 
w, 


天 
四] 


对 时 刻 1 =2,3,.….,T 依次 计算 得 到 出 现 的 状态 路 径 中 概率 最 
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大 的 路 径 ， 并 得 到 概率 最 大 路 径 的 第 t-1 个 节点 。 
c) 终止 。 


P' = maxo,(i) 
i (15) 
i =argmax[o, (i)] 

当时 刻 ;=7 时 , 可 以 计算 得 到 最 后 一 个 时 刻 概率 最 大 路 径 
对 应 的 节点 和 概率 最 大 路 径 中 前 一 时 刻 对 应 的 节点 。 

d) 最 优 路 径 回 滴 ， 对 1=T-1,7-2,...,1 
i =y,,(i) (16) 
时 刻 f=7 依次 回溯 到 =1 时刻, 就 可 以 得 到 观测 序列 对 
应 的 概率 最 大 路 径 ， 即 最 优 路 径 。 最 终 求 得 的 最 优 路 径 ， 也 就 
是 词 所 对 应 的 词性 状态 ,根据 得 到 的 状态 序列 , 输出 命名 实体 
类 型 对 应 的 观测 样本 ， 完 成 命名 实体 识别 。 


表 1 GENIA V3.02 语料库 中 实体 标签 分 布 
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行 了 实验 。 实 验 如 下 : 
3.2.1 针对 ec 的 实验 

本 文 针 对 不 同 的 c 取 值 分 别 对 BioTHMM 和 HMM 进行 
了 实验 , 实验 结果 如 图 2 所 示 , 实验 结果 表明 同样 大 小 的 D 下 ， 
通过 对 D_ 中 知识 的 迁移 学 习 , BioTrHMM 算法 的 识别 性 能 显著 
大于 HMM 的 识别 性 能 。 


= HUN 
一 BonHMM ( 单 让 人 度 


& BOTHMM (BRIER 


2 针对 Cx 的 实验 


Cell type Cellline No-entity pa 
Protein/% DNA/% RNA/% 
/% /% /% 
1045 395 040 4.00 190 79.30 通过 对 辅助 集 的 学 习 ，BioTrHMM 学 到 了 更 多 对 目标 任务 
有 贡献 的 知识 ， 使 得 学 习 得 到 的 模型 更 加 健壮 。BioTrHMM 与 
表 2 辅助 集中 实体 标签 分 布 HMM 有 相同 的 目标 集 ， 但 是 BioTrHMM 通过 使 用 现 有 分 布 不 
人 同 的 辅助 集 在 不 增加 人 工 标注 成 本 的 情况 下 ， 大 大 提升 了 算法 
3.95 0.40 4.00 1.90 89.75 的 性 能 。 


3 ”实验 及 结果 分 析 


为 了 验证 BioTrHMM 算法 的 性 能 , 本 文 在 GENIA v3.02 语 
料 库 上 进行 了 实验 。 
3.1 实验 设置 
为 了 验证 本 文 的 算法 对 生物 医学 命名 实体 识别 的 预测 性 能 ， 
选取 传统 的 HMM 算法 与 本 文 提出 的 基于 
BioTrHMM 算法 进行 比较 。 目 前 ， 最 常用 的 生物 医学 标注 语 料 
库 是 GENIA v3.02 语料库 ， 该 语料库 包含 了 来 自 MEDLINE 的 
2 000 个 摘要 标注 文本 〈 约 360 000 个 单词 )， 并 且 包 含 36 个 词 
性 类 别 ， 其 中 包含 5 个 生物 医学 实体 类 型 。 本 文 使 用 了 GENIA 
V3.02 语料库 (http:/www.nactem.ac.uk/genia/genia- corpus ) 的 数 
据 进行 了 实验 本文 识别 的 是 蛋白 质 命 名 实体 ,采用 了 精确 率 、 
召回 率 和 六 值 0 作为 评价 指标 。GENIAYv3.02 语料库 中 实体 标 
签 分 布 说 明 如 表 1 所 示 。 
本 文中 D 是 含有 蛋白 质 命 名 实体 标签 和 其 他 词性 标签 的 
标 集 ，D, 是 把 蛋白 质 命 名 实体 标签 处 理 为 NN 类 型 的 辅助 
， 辅 助 集中 标签 分 布 如 表 2 所 示 。 
本 文中 设置 了 三 个 参数 a ，8 ，y 。 其 中 |D | 表示 目标 
的 大 小 ; 81D | 表示 辅助 集 的 大 小 ;yy 表示 所 用 数据 集 所 占 
GENIA 语料库 的 比例 ， 当 使 用 全 部 GENIA v3. 02 语料库 时 ， 
7 值 为 1。 本 文通 过 对 每 组 实验 进行 十 折 交 叉 验 证 的 方法 ， 确 
保 结 果 的 有 效 性 。 
3.2 ”实验 结果 

为 了 验证 BioTrHMM 算法 的 性 能 , 本 文 分 别 从 不 同 角 度 进 


I 


uy 


J 


mt 


hn 


3.2.2 针对 B/e 的 实验 
本 文 为 了 研究 Dp, 大 小 对 算法 性 能 的 影响 , 在 训练 集 大 小 相 
同情 况 下 ， 针 对 不 同 6/w 进行 了 实验 。 本 文 把 Dp, 中 和 的 
数据 集 大 小 比例 设 定 为 2: 1、3: 1、4: 1 和 5:1。 表 3 是 y=1 
时 的 实验 结果 对 比 。 

尽管 随 着 Dp 数量 的 减少 BioTrHMM 算法 的 性 能 有 所 降低 ， 
但 是 仍然 与 传统 的 隐 马 尔 可 夫 模 型 的 预测 效果 相当 。 


表 3 BioTrHMM 与 HMM 实验 结果 对 比 


精确 ”如 
方法 Bl/a F 值 
HMM - 0.6355 0.5399 0.5797 
2 0.8955 0.5201 0.6519 
3 0.8695 ”0.4974 0.6226 
BioTrHMM (Similarity ) 
4:1 0.8684 ”0.4701 0.6009 
| 0.8822 0.4578 0.5848 
2:1 0.8761 0.5363 0.6541 
BioTrHMM 3:1 0.8704 0.4980 0.6233 
(EditDistance) 4:1 0.8677 0.4723 0.6026 
| 0.8697 0.4453 0.5811 


3.2.3 针对 yy 的 实验 

为 了 进一步 探讨 算法 的 有 效 性 ， 本 文 还 分 别 在 不 同 大 小 的 
数据 集 上 进行 了 实验 。 本 文 分 别 在 y =0.8 和 y=0.6 是 进行 了 实 
仿 ， 实 验 结 果 如 表 4 和 5 所 示 。 实 验 结果 表明 ， 标 注 的 目标 数 
据 集 的 规模 对 传统 的 HMM 算法 的 性 能 具有 较 大 的 影响 。 尽 管 
数据 集 规模 有 所 减 小 , 但 是 BioTrHMM 算法 依然 具有 良好 的 预 
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测 分 类 性 能 。 同 时 ，BioTrHMM 算法 在 保证 分 类 分 析 性 能 的 前 。 基于 实例 的 迁移 学 习 。 本 文通 过 对 HMM 学 习 算法 进行 改进 ， 
提 下 ， 有 效 的 降低 了 对 标注 目标 数据 的 需求 量 , 减少 了 人 人工 标 ” 在 加 权 数 据 集 中 学 习 HMM 的 模型 参数 ， 建 立 迁 移 学 习 条 件 下 
注 数 据 的 开销 。 的 预测 模型 。 实 验 结果 表明 ，BioTrHMM 在 使 用 较 少 目标 领域 
综 上 实验 结果 表明 本 文 提出 的 BioTIHMM 算法 通过 对 跨 已 标注 数据 的 情况 下 ， 具 有 更 好 的 预测 性 能 。 本 文 提 出 的 方法 
领域 知识 的 迁移 ， 可 以 在 生物 医学 蛋白 质 命名 实体 标注 数据 较 不仅 可 以 用 于 生物 医学 文本 的 命名 实体 识 见 以 推广 
少 的 情况 下 ， 可 以 达到 较 好 的 分 类 分 析 效 果 。 此 外 ， 以 上 实验 。 ”到 文本 挖掘 的 命名 实体 识别 当中 。 
结果 表明 相似 度 度量 方法 的 不 同 对 本 文 提 出 的 BioTrHMM 算 在 部 分 本 文 仅 对 HMM 算法 进行 了 改进 ， 很 多 研究 表明 条 
法 几乎 没 用 影响 。 使 用 不 同 的 相似 度 度量 方法 ，BioTrHMM 算 ” 件 随 机 场 在 命名 实体 识别 中 比 HMM 有 具 有 更 好 的 识别 性 能 0” 
法 都 可 以 实现 比 传统 隐 马 尔 可 夫 模 型 更 好 的 预测 效果 。 由 于 30。 基于 此 研究 成 果 和 研究 现状 ， 未 来 工作 考虑 将 在 条 件 随 机 
HMM 与 BioTrHMM 算法 实验 使 用 的 训练 集 和 测试 集 的 大 小 都 。” 场 基础 上 对 命名 实体 识别 进行 迁移 学 习 ， 从 而 提升 对 命名 实体 
相同 ,而 BioTrHMM 算法 算法 中 训练 集 是 由 两 部 分 组 成 , 故 在 ” ”的 识别 性 能 。 
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